RetroInfer: Un motor de almacenamiento de vectores para inferencia escalable de LLM de contexto largo Descubre RetroInfer: inferencia escalable de LLM con contexto largo para mayor eficiencia y precisión en modelos de lenguaje. 2026-04-28 · 2 min